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面向 图 文 匹配 任务 的 多 层次 图 像 特征 融合 算法 


Ib RUE L2, 李 俊 峰 We we Fin 0] i 温 SZ My 王丽娟 s Rg YS : 
(1. 广东 工业 大 学 计算 机 学 院 , 广州 510006; 2. 佛山 科学 技术 学 院 数学 与 大 数据 学 院 , 广东 佛山 528000) 


摘 要 : 现 有 主流 的 利用 预 训练 卷 积 神经 网 络 提 取 图 像 特 征 的 方法 存在 如 下 问题 : 仅 使 用 单 层 预 训练 特征 表征 图 像 ; 
预 训练 任务 与 实际 研究 任务 不 一 致 。 使 得 现 有 图 文 匹 配方 法 无 法 充分 利用 图 像 特征 ， 极 易 受 到 噪声 特征 干扰 。 针 对 
上 述 问题 ， 使 用 了 预 训 练 网 络 中 的 多 层 特征 ， 并 提出 了 多 层次 图 像 特征 融合 算法 。 在 图 文 匹 配 的 学 习 目 标 指导 下 ， 
利用 多 层 感知 机 (Multi-Layer Perceptron) 有 监督 地 融合 和 降 维 多 层 次 的 预 训练 图 像 特征 ， 生 成 融合 图 像 特征 ， 从 
而 充分 利用 预 训 练 特征 , 减少 噪声 干扰 。 实验 结果 表明 , 提出 的 融合 算法 可 实现 对 预 训练 的 图 像 特征 更 有 效 的 利用 ， 
相 比 于 使 用 单 层次 特征 的 方法 能 获得 更 好 的 图 文 匹 配 效果 。 
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Fusion of multi-level image features for image-text matching 
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Big Data, Foshan University, Foshan Guangdong 528000, China) 


Abstract: The existing mainstream methods use the pre-trained convolutional neural networks to extract image features and 
usually have the following limitations: a) Only using a single layer of pre-trained features to represent image; b) 
Inconsistency between the pre-trained task and the actual research task. These limitations result in that the existing methods 
of image-text matching cannot make full use of image features and is easily influenced by the noises. To solve the above 
limitations, this paper used multi-layer features from a pre-trained network and proposed a fusion algorithm of multi-level 
image features accordingly. Under the guidance of the image-text matching objective function, the proposed algorithm fused 
the multi-level pre-trained image features and reduced their dimensionality using a multi-layer perceptron to generate fusion 
features. It is able to make full use of pre-trained features and successfully reduce the influences of noises. The experimental 
results show that the proposed fusion algorithm makes better use of pre-trained image features and outperforms the methods 
using single-level features in the image-text matching task. 
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© 0 引言 年 来 ， 解 决 表征 问题 需要 仔细 的 工程 设计 和 相当 的 领域 专业 
= 知识 来 设计 一 个 特征 提取 器 ， 将 原始 数据 (如 未 处 理 的 文本 
‘= 近年 来 ， 图 文 匹配 任务 在 人 工 智能 、 机 器 学 习 等 领域 中 或 者 图 像 的 像素 值 ) 转换 成 合适 的 内 部 表示 或 者 特征 向 量 。 
T 逐渐 变 得 热门 。 为 了 给 文本 选取 最 适合 的 图 像 ， 在 过 去 通常 如 此 一 来 , 建 模 过 程 会 过 于 复杂 而 且 往 往 其 表征 能 力也 不 强 。 
采用 人 工 搜 索 的 方式 ,根据 文本 内 容 在 海量 图 像 中 进行 筛选 ， 基于 前 人 在 深度 学 习 领 域 取 得 的 瞩目 成 果 ， 可 以 利用 
这 会 耗费 人 类 大 量 的 时 间 和 精力 。 得 益 于 前 人 所 取得 的 成 果 ， 些 通用 的 人 工 神经 网 络 去 进行 表征 学 习 ， 例 如 多 层 感知 机 
本 文 现在 可 以 利用 机 器 学 习 等 技术 ， 构 建 一 个 能 根据 文本 内 (multi-layer perceptron) 册 、 循 环 神经 网 络 (recurrent neural 
容 推 荐 合适 图 像 的 图 文 匹 配 系 统 。 这 使 得 无 须 再 进行 繁琐 的 、 networks, RNN) 中 、 卷 积 神经 网 络 (convolutional neural 
重复 的 人 工 搜索 , 减轻 工作 压力 。 而 作为 一 个 图 文 匹 配 系统 ， networks,CNN ) 中 和 长 短期 记忆 网 络 (long short-term 
必须 同时 关注 文本 和 图 像 这 两 个 属于 不 同 模 态 的 研究 对 象 ， memory,LSTM) 外 。 这 些 网 络 是 由 多 个 简单 、 非 线性 的 特征 
对 此 图 文 匹 配 实际 上 是 属于 多 模 态 (multimodal〉 的 任务 。 层 组 合 而 成 。 每 个 特征 层 都 将 某 一 级 别 的 特征 变换 为 更 抽象 、 
为 了 完成 这 个 任务 ， 一 般 需 要 解决 的 有 三 个 基本 问题 : 如 何 更 高 级 的 特征 。 有 了 足够 的 变换 组 合 ， 网 络 也 就 能 学 习 到 十 
对 文本 进行 表征 ; 如何 对 图 像 进行 表征 ;如 何 联合 地 分 析 文 分 复杂 的 功能 。 最 关键 的 一 点 是 ， 这 些 人 工 神 经 网 络 里 的 特 
本 和 图 像 的 特征 ， 精 准 地 度量 两 者 的 相似 性 。 其 中 前 两 个 表 征 层 并 不 是 由 人 类 工程 师 所 设计 的 ， 而 是 在 学 习 目标 指导 
征 问 题 尤为 重要 ， 因 为 它们 是 解决 第 三 个 问题 的 基础 。 数 十 从 数据 中 学 习 的 。 因 此 ， 深 度 学 习 方 法 的 利用 简化 了 建 模 的 
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过 程 和 增强 了 对 研究 对 象 的 表征 能 力 。 
一 般 地 ， 在 深度 学 习 中 为 了 对 研究 对 象 进行 特征 抽取 ， 1 ”相关 工作 

有 两 种 方法 : a) 在 研究 任务 的 学 习 目 标 指导 下 有 监督 地 训练 图 文 匹配 在 推荐 系统 、 机 器 学 习 等 领域 中 占据 着 重要 的 
一 个 人 工 神经 网 络 ， 然 后 利用 该 网 络 为 研究 对 象 抽取 对 任务 。 地 位 。Yan 等 人 回 提 出 使 用 深度 网 络 去 表征 图 像 和 文本 ， 然 
的 特征 ; b) 利用 数据 集 质量 较 高 的 预 训练 任务 训练 一 个 ” 后 利用 带 有 深度 典型 关联 分 析 的 联合 隐藏 空间 学 习 以 解 决 图 
工 神经 网 络 ， 再 用 该 网 络 中 某 一 层 特征 作为 研究 对 象 的 一 ” 文 匹 配 的 问题 。Ma 等 人 中 在 图 文 匹配 任务 中 , 构建 了 一 个 图 
特征 。 对 于 一 些 数据 集 质 量 不 够 高 的 研究 任务 ， 为 了 更 不 ”” 像 特征 抽取 网 络 ， 并 提出 使 用 预 训练 的 卷 积 神经 网 络 来 初始 
和 更 有 效率 地 对 研究 对 象 进行 表征 ， 主 流 的 做 法 是 采用 第 ”化 该 特征 抽取 网 络 。 Wang 等 个 基于 深度 学 习 方 法 构建 了 一 
二 种 方法 。 例 如 ， 为 了 更 好 地 抽取 图 像 特征 ， 可 以 在 图 像 识 。 个 图 文联 合 隐藏 空间 学 习 的 一 般 框 架 ， 且 提出 了 图 像 和 文本 
别 的 任务 指导 下 使 用 ImageNet 数据 集 预 训练 一 个 卷 积 神经 ”都 存在 各 自 的 结构 保持 约束 以 及 图 文 匹配 的 双向 排名 约束 。 
网 络 ， 然 后 使 用 该 网 络 中 的 某 一 层 特 征 层 〈 一 般 是 分 类 输出 “Nam 等 人 中 提出 使 用 注意 力 机 制 去 解决 图 文 匹配 以 及 基于 视 
前 的 全 连接 层 ) 的 输出 值 作为 图 像 特 征 ， 然 后 再 进行 进一步 。 觉 的 问答 这 两 种 多 模 态 任务 ， 最 后 在 标准 的 数据 集中 获得 了 
的 研究 。 十 分 先进 的 结果 。 
人 工 神经 网 络 的 层级 结构 天 然 地 决定 了 高 层 特征 是 底层 而 在 图 像 特征 工程 领域 里 ， 一 些 用 于 处 理 图 像 的 卷 积 神 
特征 的 归纳 和 总 结 。 也 即 网 络 中 的 不 同 特征 层 分 别 代表 着 不 “经 网 络 结构 00-19 变 得 越 来 越 深 ， 朝 着 模块 化 的 方向 发 展 。 这 
司 层次 的 特征 ， 并 且 随 着 网 络 层级 越 深 ， 所 表达 的 特征 就 越 些 网 络 不 断 刷新 着 图 像 识别 任务 的 成 绩 ， 现 今 已 经 能 达到 很 
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象 和 越 高 层次 。 在 学 习 的 过 程 中 ， 网 络 必定 会 在 任务 的 学 ”高 的 水 平 ， 甚 至 已 经 超越 了 人 类 的 识别 能 力 。 因 此 可 以 确信 


习 目 标 指 导 下 ， 有 监督 地 归纳 出 对 任务 有 用 的 特征 。 然 而 ， 的 是 ， 这 些 优秀 的 网 络 模 型 有 能 力 抽 取 到 大 量 高 级 的 图 像 语 
基于 深度 学 习 的 图 文 匹配 一 般 是 直接 使 用 预 训练 网 络 中 的 单 ”” 义 特征 ， 利 用 这 些 预 训练 的 网 络 抽取 图 像 的 特征 信息 也 是 合 
层 特征 去 作为 图 像 特征 ， 或 者 对 该 单 层 特征 进一步 进行 微调 OP BELAY. 

(fine-tuning)。 因 此 也 就 只 能 使 用 到 预 训 练 任务 所 归纳 的 某 基于 这 些 优秀 的 图 像 识 别 网 络 ，Zeiler 等 人 0 尝试 去 可 
一 单 层次 特征 ， 或 者 只 能 从 该 单 层次 特征 的 基础 上 进一步 进 ” 视 化 和 理解 卷 积 神经 网 络 ， 以 及 观察 了 给 定 的 特征 图 是 受 输 
行 归 纳 。 遗 憾 的 是 ， 预 训练 任务 和 实际 研究 的 图 文 匹 配 任务 ” 入 图 像 的 哪些 结构 所 影响 的 。 随 后 ，Garcia-Gasulla $% AUS 
是 有 一 定 差别 的 (任务 的 不 一 致 性 )。 直接 使 用 某 一 单 层 次 的 。” ”尝试 无 监督 地 抽取 关于 抽象 语义 的 视觉 表达 特征 。 他 们 使 用 
预 训练 特征 会 存在 图 文 匹配 所 需要 的 特征 并 没有 被 归纳 到 的 ” 了 预 训练 的 卷 积 神经 网 络 中 的 卷 积 层 特征 去 表征 图 像 ， 然 后 
情况 ， 同 时 也 存在 大 量 没有 作用 的 噪声 特征 ， 再 者 ， 对 单 层 ”利用 与 Word-Net 距离 的 相关 性 评估 了 该 特征 空间 的 语义 ,发 
次 的 预 训练 特征 进行 微调 也 未 能 利用 到 其 他 层次 的 有 用 特征 。 现 该 空间 的 向 量 距离 是 与 语言 语义 强 相关 的 。 接 着 通过 聚 类 
忆 此 ， 直 接 使 用 或 微调 预 训练 网 络 的 某 一 单 层 次 特征 并 没有 ”实验 ， 他 们 发 现在 WordNet 中 靠近 的 元 素 能 被 聚集 在 一 起 ， 
充分 地 、 合 理 地 使 用 这 种 预 训练 特征 ， 需 要 去 抽取 多 层次 的 “ 犬 类 ”和 “ 轮 式 车 辆 ”的 类 别 之 间 也 存在 着 明显 的 鸿沟 ， 

预 训练 特征 , 并 在 该 多 层次 特征 的 基础 上 进行 进一步 的 归纳 、 而且“ 生物 ”和 “ 非 生 物 ” 这 两 个 更 高 级 的 语义 类 别 也 能 被 


提炼 。 明 
特别 地 ， 针 对 以 上 问题 ， 本 文 创新 地 使 用 了 预 训练 网 J 
中 的 多 层 特 征 ， 并 提出 了 一 种 多 层次 图 像 特征 融合 算法 〈 简 ”训练 特征 对 于 实际 研究 的 物体 识别 任务 是 否 有 效 。 实 验证 明 
导 
区 


显 地 区 分 开 来 。 这 些 证 据 都 可 以 证 明 该 表征 方式 的 确 能 够 
功 地 获取 视觉 的 高 级 语义 信息 。Agrawal 等 人 0 分 析 了 预 
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称 融 合算 法 )。 该 算法 通过 在 图 文 匹 配 任务 的 学 习 目 标 指导 下 ， ”在 大 多 数 情况 下 ， 预 训练 特征 和 微调 后 的 特征 的 表现 都 要 比 
利用 多 层 感知 机 有 监督 地 去 融合 和 降 维 多 层次 的 预 训练 图 像 重新 开始 训练 的 特征 要 好 〔 除 了 在 数据 集 有 较 大 补充 的 情况 
特征 ， 最 后 生成 出 融合 图 像 特征 。 其 中 ， 多 层次 的 预 训练 图 下 ， 重 新 训练 的 特征 的 实验 表现 会 比 预 训练 特征 好 ， 但 是 微 
像 特征 的 使 用 可 充分 地 利用 到 更 多 不 同 层次 的 特征 ， 融 合 和 调 特征 的 表现 依然 是 最 好 的 )。 
降 维 的 过 程 则 能 归纳 出 对 图 文 匹配 任务 有 用 的 特征 ， 去 除 无 实际 上 在 应 用 研究 中 ， 大 量 的 实验 表明 利用 预 训练 的 图 
用 的 特征 ， 因 此 也 减少 了 噪声 特征 的 干扰。 本 文 之 所 以 采用 像 特 征 能 够 取得 很 好 的 效果 。 如 Vinyals 等 人 P9 使 用 预 训练 
多 层 感知 机 来 实现 融合 ， 是 因为 多 层次 的 预 训练 图 像 特 征 不 的 卷 积 神经 网 络 去 表征 图 像 ， 然 后 构建 出 一 个 能 为 图 像 生 成 
能 简单 地 进行 到 加 融合 ， 具 有 复杂 的 非 线 性 关系 。 而 多 层 感 描述 文字 的 模型 ,Peng 等 人 PHU 利用 了 微调 后 的 预 训 练 卷 积 神 
知 机 是 感知 机 的 推广 ， 能 有 效 地 对 这 种 非 线 性 关系 的 特征 进 ” 经 网 络 多 尺度 地 去 获取 图 像 的 特征 ， 并 且 提 出 了 标签 继承 的 
行 处 理 ， 因 此 用 多 层 感知 机 有 监督 地 处 理 这 种 多 层次 的 特征 概念 。Liu 等 人 的 在 图 像 识 别 任务 中 使 用 了 预 训练 卷 积 神经 
是 一 种 简洁 且 有 效 的 方法 。 网 络 中 的 卷 积 层 来 获取 图 像 的 局 部 特征 。 由 于 卷 积 层 保留 了 
通过 把 融合 图 像 特 征 引 入 到 本 文 所 实现 的 基于 文本 内 容 空间 的 信息 ,不 再 需要 多 次 地 使 用 网 络 获取 图 像 的 局 部 特征 ， 
的 图 像 推 荐 算法 中 ， 能 够 获得 更 好 的 推荐 效果 。 最 后 ， 两 个 寻 此 也 消除 了 训练 图 像 的 尺度 与 图 像 局 部 的 尺度 不 一 致 的 影 
数据 集 上 的 实验 结果 都 表明 : 本 文 所 提出 的 方法 的 确 能 更 有 响 。 该 工作 证 明了 只 要 使 用 得 当 ， 不 仅 预 训练 的 全 连接 层 特 
效 地 利用 预 训 练 的 图 像 特征 ， 生 成 在 图 文 匹 配 任务 中 表达 能 征 有 用 ， 预 训练 的 卷 积 层 特征 也 能 蕴涵 十 分 有 用 的 信息 。 
力 更 强 的 融合 图 像 特征 。 Doersch 等 人 [3 利用 了 图 像 的 自身 信息 ， 自 监督 地 预 训练 网 
本 文 的 贡献 主要 包括 以 下 几 个 方面 : a) 使 用 了 由 预 训练 络 。 这 个 过 程 没 有 用 到 实际 研究 数据 集 以 外 的 任何 标签 。 该 
卷 积 神经 网 络 抽取 出 的 多 层次 图 像 特征 ; b) 构建 了 一 个 在 图 工作 的 实验 结果 表明 ， 利 用 该 方法 预 训练 的 特征 也 能 够 在 计 
文 匹 配 任务 的 学 习 目 标 指导 下 ， 对 多 层次 的 预 训 练 图 像 特征 算 机 视觉 任务 中 发 挥 作用 ， 提 升 表现 。 以 上 的 工作 都 是 使 用 
进行 融合 和 降 维 的 多 层 感知 机 ， 其 为 图 像 生成 融合 图 像 预 训练 的 网 络 去 表征 图 像 的 ， 虽 然 能 有 很 好 的 表现 ， 但 是 都 
FRE; o 利用 协同 过 滤 馈 的 思想 构建 了 一 个 能 根据 文本 内 容 仅仅 使 用 了 预 训练 网 络 中 的 某 一 单 层次 特征 去 作为 图 像 的 特 
进行 推荐 的 图 像 推 荐 算法 ， 并 在 该 算法 中 使 用 本 文 所 提出 的 征 。 这 会 导致 预 训练 特征 没有 被 充分 地 利用 和 易 受 噪声 特征 
融合 图 像 特 征 。 的 干扰 等 问题 。 因 此 有 人 开始 尝试 去 使 用 和 融合 预 训练 网 络 
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中 的 多 层次 特 


E。 如 Gatys $ ACER 


使 用 了 预 训练 网 络 
容 特 征 ， 以 及 使 月 


Matrices 共同 
播 修改 噪声 图 像 ， 最 终 即 可 j 
图 像 。 该 工作 通过 


带 有 指定 风格 和 指定 内 容 的 。 式 (1) 中 的 Re 可 以 只 包含 部 分 特征 层 的 特有 
损失 函数 姜 加 的 方式 对 多 层次 的 预 训练 特 为 了 从 多 层次 的 预 训练 特征 中 归纳 出 对 图 


征 进行 利用 。Liu 等 人 P5 利 
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像 的 风格 迁移 任务 中 空间 信息 ， 则 不 需要 进行 池 化 操作 : 
E 来 作为 图 像 的 内 JP = fel” (3) 
E 所 产生 的 多 个 Gram 需要 注意 的 是 ， 实 际 上 不 总 是 需要 使 用 预 训练 网 络 中 所 
。 然 后 利用 反 辐 梯度 传 有 的 特征 层 ， 而 是 可 以 根据 具体 情况 有 选择 1 


地 使 用 ， 因 此 


文 匹配 任务 有 


FA BoVW (bag of visual words) 用 的 特征 和 舍弃 无 用 的 噪声 特征 ， 本 文 构建 了 一 个 多 层 感 知 


算法 把 预 训 练 的 卷 积 层 特征 


E 转 换 成 单词 直方 图 以 表征 图 像 。 机 MLP 在 图 文 匹配 任务 的 学 习 目标 指导 下 去 融合 和 降 维 图 


最 后 通过 各 层 直方 区 


字 塔 式 匹 配 核 ， 


生物 医学 图 像 的 分 割 但 
网 络 的 收缩 路 径 中 下 
合 在 一 起 ， 以 致 随后 的 连续 卷 积 
出 一 个 更 精确 的 输出 。 
2 ， 多 层次 图 像 特征 融合 算法 及 图 像 推 荐 算法 
2.1 多 层次 图 像 特征 融合 算法 


权 加 和 得 到 一 个 总 的 深度 金 
于 对 SVM (support vector machine) 算法 
进行 优化 。Ronneberger 等 人 P4 


RA AY Foe 特征 ， 最 终 输 出 融合 图 像 特征 Eine : 


T 


E 务 。 该 网 络 为 了 更 


网 络 以 解决 
ae pes $ E® = MLP(F®) 4 
进行 定位 ， 把 人 
村 征 和 上 采样 路 径 中 的 输出 结 该 MLP 为 标准 的 全 连接 人 工 神经 网 络 ， 其 设计 有 以 下 


F 进 行 融合 和 降 ”激活 函数 、 各 层 的 维度 以 及 层 数 是 与 实际 的 研究 对 象 和 研究 


融合 算法 月 


居 这 些 信息 组 合 。 ” 几 个 特点 : a) 隐藏 层 和 输出 层 都 设置 了 非 线性 激活 函数 以 增 


强 网 络 的 表达 能 力 ; b) 网 络 的 各 层 维度 随 着 深度 越 深 变 得 越 

低 ， 用 于 对 高 维度 且 包 含 大 量 噪声 特征 的 多 层次 预 训练 特征 

进行 融合 和 降 维 ; c) 网 络 输出 的 融合 图 像 特征 的 维度 要 与 文 

本 特征 一 致 ， 以 便 进行 相似 度 测 量 。 由 于 MLP 中 所 采用 的 
实 


~ 


ol 


` 


于 对 多 层次 的 预 训练 区 


维 ， 是 本 文 的 核心 算法 ， 整 个 算法 框架 如 图 1 所 示 。 数据 集 有 关 的 , 本 节 并 没有 更 详细 地 定义 其 网 络 的 细节 结构 ， 


Fig. 1 Framework of fusion algorithm 


NI 


给 定 一 个 已 经 用 j 
训练 过 的 卷 积 神经 网 


训练 任务 (如 ImageNet 


只 是 给 出 一 个 最 一 般 的 定义 ， 实 际 所 用 MLP 的 更 多 细节 将 
在 第 3 章 中 呈现 。 为 了 训练 MLP 的 网 络 参数 ， 定 义 一 个 约 


SER, Eine) > m+ EGY Ein’) 

Vy; €¥7,Vy, EÝ 
其 中 : YA Y DIREI x MIRARE (匹配) 和 
负 类 《不 匹配 ) 的 图 像 集合 ， ER 为 文本 对 应 的 特征 向 量 
(通过 一 些 无 监督 方法 ， 如 潜 语 义 分 析 (latent semantic 
analysis, LSA) 主题 模型 和 doc2vecP28 等 ， 去 抽取 出 文本 


特征 向 量 ) Bing’ 和 Eine’ 分 别 代表 当 图 像 y A y, 作为 融合 算 


法 的 输入 时 ， 所 输出 的 融合 图 像 特征 ， oo) REE v A v 
的 余弦 相似 度 ; m 为 强制 间隔 大 小 CEnforced Margin). 

R (5) 的 约束 表示 : BEV CAs, 令 其 与 对 应 的 每 
个 正 类 图 像 y; 的 特征 相似 度 , 都 要 大 于 间隔 大 小 天 加 上 其 与 
每 个 负 类 图 像 y, 的 特征 相似 度 。 
通过 使 用 Hinge Loss 的 标准 形式 ， 把 式 (5) 的 约束 转 
换 为 MLP 的 训练 损失 函数 : 


loss = 2 max[0,m+SsCBEE Eime ) -SER Eme )] (6) 


ijp 


(5) 


A (6) 的 损失 函数 包含 了 训练 集中 所 有 由 训练 文本 ,对 
应 的 正 类 图 像 ， 以 及 对 应 的 负 类 图 像 所 组 成 的 三 元 组 。 而 1 
于 三 元 组 的 组 合 数量 太 多 ， 使 用 所 有 的 三 元 组 来 训练 MLP 


VRIES) ”是 不 切实 际 的 。 所 以 在 MLP 的 每 一 次 迭代 训练 中 ， 对 于 每 


可 以 有 选择 地 抽取 使 月 


该 网 络 中 的 。 ”个 训练 文本 ， 仅 随机 选取 一 个 负 类 图 像 ， 和 对 应 的 正 类 图 像 


卷 积 层 或 全 连接 层 
层 ， 把 图 像 大 输入 到 网 络 后 ， 对 各 层 特 和 
个 多 层次 的 总 预 训练 特 生 


FO TA A LP] 


G k FERIA 4 


征 。 假 设 预 训练 网 络 


于 层 特征 共同 构建 出 三 元 组 以 进行 匹配 训练 。 


其 中 :为 图 


为 了 令 各 


接 ， 生 成 一 实际 上 ， 对 于 不 同 的 训练 样 例 ,， 式 〈6) 中 的 间隔 大 小 m 


是 可 以 不 同 的 。 但 是 为 了 更 易于 进行 优化 ， 为 数据 集中 的 所 


层 特 征 为 卷 积 层 特征 conv,” 时 ， 


要 对 该 层 特征 进行 池 化 (Pooling 肖 除 空间 


有 训练 样 例 设 个 固定 的 间隔 大 小 m， 其 具体 数值 将 在 章 
(1) ars YS u 
T3 中 给 LH o 
正 。 2.2 图 像 推荐 算法 
起 ， 当 预 训练 网 络 的 第 i 在 本 节 实 现 了 一 个 基于 协同 过 滤 思 想 的 、 能 根据 文本 内 
H 的 信息 ， 需 容 进行 推荐 的 图 像 推 荐 算法 ,并且 在 搜狐 2017 图 文 匹 配 大 赛 
言 息 : Chttps://www.biendata.com/competition/luckydata/) 中 使 用 了 


(2) ”该 算法 , 获得 了 第 三 名 。 设 Xs 代表 训练 集中 的 文本 集合 , zs 


而 当 第 i 层 特征 大 于 其 不 有 具有 ”代表 测试 集中 的 图 像 集合 以 及 result 代表 推荐 结果 的 图 像 集 
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分 别 是 : 最 后 的 Pool 层 特征 〈 简 称 fe 特征 )， 首 个 Inception 
法 的 具体 步骤 为 : nie 
ee ica BEER 3 CB 6) 的 经 过 最 大 值 池 化 处 理 的 卷 积 层 特征 输出 ( 简 


a) 给 定 一 个 在 测试 集中 的 文本 xs ， 通 过 文本 主题 模型 ” 称 mixed9 特征 )。 
为 其 在 文本 集合 Xue 中 找寻 最 相似 文本 内 容 的 文本 xs ( 式 表 1 Inception v3 网 络 结构 
(7))， 相 应 地 ， 即 可 获得 文本 ss 在 训练 集中 所 对 应 的 匹配 Table ] Network structure of Inception v3 
图 像 Vian ; 类 型 窗口 大 小 / 步 长 或 备注 输入 大 小 
b) 在 图 像 集合 Meu — result) 中 利用 图 像 的 特征 信息 找寻 出 Conv 3x 3/2 299x 299x3 
与 图 像 yw 最 相似 的 图 像 yes 作为 推荐 候选 图 像 ( 式 (8))， Conv 3x 3/1 149x 149x 32 
并 把 该 vin 放 进 图 像 集合 result 中 。 Conv Padded 3x 3/1 147x 147x 32 
Xan Sarg max SES, BS) (7) Pool 3x 3/2 147 x 147 x 64 
ae Conv 3x 3/1 73 x 73 x 64 
Yea =arg_ max s( Ege), BO) (8) Conv 3x 3/2 71x 71x 80 
eee Conv 3x 3/1 35x 35x 192 
该 推荐 流程 如 图 2 Pra. BRR b) 直至 result PO 3 x Inception 4 35x 35 x 288 
包含 天 个 推荐 候选 图 像 。 5x Inception 5 17x 17x 768 
2x Inception 图 6 8x 8x 1280 
主题 模型 Pool 8x 8 8x 8x 2048 


X 
FA Linear Logits 1x 1x 2048 
PH > > M. Softmax Classifier 1x 1x 1000 
为 了 设 定 融合 算法 中 MLP 的 结构 参数 ， 进 行 了 以 下 探 


讨 。CybenkoB0 已 经 证 明了 ，MLP 最 多 只 需要 一 层 隐 藏 层 就 

能 够 达到 近似 函数 的 目的 。 基 于 该 结论 ， 本 文 的 MLP 只 设 

四 > = i= 多 置 一 层 隐 藏 层 。 此 外 还 进一步 探究 了 非 线性 激活 函数 对 融合 

: - 效果 的 影响 ， 在 图 3 呈现 〈 利 用 推荐 效果 来 间接 体现 融合 效 

ye REISE Yaan 果 ), 可 看 到 为 隐藏 层 加 入 了 非 线性 激活 函数 后 , 网 络 的 融合 

效果 下 降 了 ,但 是 通过 加 入 对 网 络 参数 的 L2 正则 化 约束 后 ， 

图 2 推荐 流程 能 使 整个 网 络 的 拟 合 能 力 和 泛 化 能 力 提升 ,融合 效果 为 最 优 。 

Fig. 2 Recommendation flowchart 所 以 本 文 最 后 采用 了 为 隐藏 层 加 入 非 线性 激活 函数 的 网 络 结 

显然 ， 在 本 推荐 算法 中 使 用 不 同 表征 能 力 的 图 像 特征 会 。 构 ， 并 且 利用 L2 正则 化 优化 网 络 参数 的 训练 。 具 体 地 ， 融 
产生 不 同 的 推荐 表现 。 本 文 尝试 把 多 种 图 像 特征 (包括 由 本 ”合算 法 中 使 用 了 fo 特征 和 mixed9 特征 作为 输入 的 MLP ( 简 
文 2.1 节 的 融合 算法 所 生成 的 融合 图 像 特征 》 分 别 作为 推荐 PK MLPswss ) 的 结构 为 ， 维 度 为 4096 维 的 输入 层 ， 维 度 为 
算法 中 的 图 像 特征 信息 ， 然 后 根据 推荐 表现 直接 地 评估 各 种 2048 维 ， 带 有 sigmoid 激活 函数 的 隐藏 层 ， 维 度 为 500 维 ， 
图 像 特征 的 表征 能 力 。 带 有 tanh 激活 函数 的 输出 层 。 本 文 使 用 了 十 万 组 数据 级 别 的 
Saona 初赛 训练 集 在 最 小 化 式 (6) 的 指导 下 有 监督 地 训练 MLPewwews 

3 ”实验 及 结果 分 析 的 网 络 参数 ， 并 且 在 训练 的 过 程 中 加 入 了 对 参数 的 L2 正则 


本 章 在 搜狐 图 文 匹配 比赛 数据 集 和 Flickr30K 数据 集 P?1 。” 化 约束 (权重 为 0.0005〉 以 优化 训练 效果 。 其 中 ， 式 (6) 
上 进行 了 对 比 实验 ， 评 估 了 各 种 图 像 特征 的 表现 ， 并 结合 实 损失 函数 中 的 m 设置 为 0.5， 参 数 采 用 Adam 算法 
验 结果 分 析 了 本 文 所 提出 的 融合 算法 的 优势 。 本 文 使 用 图 文 ( learning rate=0.001 , betal=0.9 , beta2=0.999 , 
匹配 任务 中 常用 的 评测 标准 recall@K/% (K=1, 5, 10) 报告 了 e-psilon=1e-08) 进行 更 新 。 
实验 的 推荐 表现 ， 其 为 匹配 的 图 像 被 检索 在 推荐 结果 前 天 的 025 
新 闻 文 本 占 得 的 比例 。 
3.1 搜狐 图 文 匹配 比赛 数据 集 
本 数据 集 来 源 于 2017 年 由 搜狐 公司 举办 的 图 文 匹配 大 
赛 。 本 实验 所 使 用 的 数据 包含 了 初赛 十 万 级 别 的 训练 集 ， 复 
赛 百 万 级 别 的 训练 集 ， 决 赛 400 小 型 测试 集 〈 决 赛 400 小 型 
测试 集 是 在 决赛 20000 完整 测试 集中 分 出 的 子 集 ， 包 含 了 完 0.05 

配 图 ) 以 及 决赛 20000 zi 


> 
bo 


> 


Recall(@10 推 荐 效果 


整 测试 集中 的 400 篇 新 闻 和 对 应 400 i 
完整 测试 集 。 该 数据 集 里 的 每 一 篇 新 闻 文本 都 有 其 相应 的 一 
幅 配 图 。 a ‘ $ < 
在 本 实验 中 ， 为 了 更 好 地 表达 文本 ， 利 用 百 万 组 数据 级 Pd se Ka 
别 的 复赛 训练 集中 的 所 有 新 闻 文 本 ， 训 练 了 一 个 500 主题 的 & yy 

潜 语 义 分 析 主题 模型 C7， 并 通过 该 模型 为 所 有 的 新 闻 文本 生 8 
成 特征 向 量 。 融 合算 法 里 的 预 训练 网 络 是 经 过 ImageNet 图 像 pe 
识别 任务 预 训 练 完 成 的 Inception v3 网 络 04， 该 网 络 的 结构 

轮廓 在 表 1 给 出 ， 更 详细 的 结构 可 参见 文献 [14]。 本 实验 使 图 3 MLP 网 络 结构 对 融合 效果 的 影响 

用 了 预 训练 网 络 中 两 个 特征 层 来 作为 多 层次 预 训 练 图 像 特征 ， Fig.3 Influence of MLP network structure on fusion performance 
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提高 , 其 中 recall@10 表现 有 0.5 的 提升 。 证 明 多 层次 特征 比 
Te oncat 单 层 次 特征 会 有 更 好 的 推荐 表现 , 但 是 由 于 其 特征 维度 太 高 ， 
含有 大 量 对 图 文 匹 配 任务 而 言 是 噪声 的 特征 ， 所 以 表现 提升 
不 算 太 大 。 然 而 本 文 的 方法 能 够 在 图 文 匹配 任务 的 学 习 目标 
指导 下 ,有 监督 地 对 多 层次 图 像 特征 进行 融合 和 降 维 。 因 此 ， 

MLPemiscas 融合 图 像 特征 的 recall@K 表现 相 比 于 fe 特征 都 有 
大 量 的 提高 , 其 中 Recall@10 表现 甚至 有 9.5 的 提升 。 显 然 ， 
本 文 提出 的 方法 是 有 效 的 。 为 了 进一步 检验 本 方法 在 大 型 涡 


1x1 1x1 Pool 1x1 


ZÆ 
a 试 集中 是 否 有 效 ， 本 文 在 决赛 20000 完整 测试 集中 也 进行 了 
该 实验 ， 实 验 结果 仍然 在 表 2 给 出 。 从 表 2 可 以 看 出 ， 因 为 
推荐 的 搜索 空间 扩大 了 , 所 以 完整 测试 集中 的 recall@K 表现 

的 大 


Base 


明显 比 小 型 测试 集 的 要 差 。 尽 管 如 此 ，fe+mixed9 REHE K 

图 4 Inception v3 网 络 中 的 Inception 模块 1 部 分 Recall@K 表现 还 是 相 比 于 fe 特征 有 稍微 的 提高 。 而 
Fig.4 Module 1 in Inception v3 network MLPiemixcas 融合 图 像 特征 的 recall@K 表现 相 比 于 fc 特征 则 有 

更 大 的 提升 ， 其 中 recall@10 表现 有 0.6 的 提升 。 因 而 ， 本 方 

Filter Concat 法 在 大 型 测试 集中 也 是 有 效 的 。 

表 2 搜狐 数据 集中 各 种 图 像 特 征 在 图 像 推荐 算法 的 对 比 实验 


Table 2 Comparison of image recommendation algorithms using 


f 


different image features on SOHU dataset 
测试 集 特征 R@1 R@5 R@10 
fc 特征 4.0 7.0 10.2 
决赛 400 小 型 fe+mixed9 特征 4.7 8.0 10.7 
测试 集 MLPremiscas 融合 图 像 
特征 (this paper) 
fe 特征 0.6 1.2 1.7 
决赛 20000 完 fctmixed9 特征 0.7 1.3 1.7 
EMAA MLP i mixas 融合 图 像 


6.2 13.0 19.7 


mr 


0.7 1.6 2.3 


特征 (this paper) 

as ee ee tee 末 实 验 还 设计 了 一 个 只 使 用 六 特征 作为 输入 的 MLP( 简 
称 MLP。 ,其 产生 的 图 像 特 征 也 简称 为 MLP; 特征 )， 其 具体 结 
Base 构 和 训练 细节 与 MLPewwews 相 比 ， 只 是 结构 上 的 输入 层 维度 变 
图 5 Inception v3 网 络 中 的 Inception 模块 2 为 2048, KANG ies ee oe 的 训练 约束 能 让 ~ 输出 
| ART 的 图 像 特征 向 量 与 文本 特征 向 量 直接 在 余弦 相似 度 上 进行 匹 
kag: 3 Module 2a Inception WO 配 ， 所 以 实验 在 表 3 分 别 给 出 了 利用 不 同 MLP 所 输出 的 医 
Paes 像 特征 与 文本 特征 直接 进行 相似 度 匹 配 的 推荐 表现 ， 以 检验 

在 融合 和 降 维 的 过 程 中 使 用 多 层次 的 特征 是 否 比 使 用 单 层 次 

的 特征 更 有 优势 。 
表 3 在 搜狐 数据 集中 直接 对 图 像 特征 和 

文本 特征 进行 相似 度 匹 配 的 对 比 实验 


Table 3 Comparison of similarity matching between image features 


and text features on SOHU dataset 
测试 集 特征 R@I R@5 R@10 
5 MLP, 特征 5.5 13.7 20.7 
Ixl | 1x Pool | 1x1 | 决赛 400 小 型 
ne MLP; mixeao 融合 图 像 
测试 集 cus 4.2 16.7 24.2 
特 和 
MLP, 特征 0. 1.5 1 
Base 决赛 20000 完 a 3 za 
eres MLP misao 融合 图 像 
整 测试 集 0.5 1.7 3.0 
图 6 Inception v3 网 络 中 的 Inception 模块 3 特征 
Fig.6 Module 3 in Inception v3 network 根据 表 3 可 以 看 到 ， MLPsmes 融合 图 像 特征 的 大 部 分 
为 了 直接 对 比 由 MLPrniscas 生成 的 融合 图 像 特征 (简称 recall@K 表现 要 优 于 MP. 特征 (只 在 小 型 测试 集中 的 
MLP micao 融合 图 像 特征 )、fc 单 层次 特征 和 fr+mixed9 多 层次 。 ”recall@1 出 现 了 MLEswee 融合 图 像 特征 表现 较 差 的 情况 )。 该 
特征 的 推荐 表现 ， 本 文 在 2.2 节 的 图 像 推 荐 算法 中 分 别 使 用 结果 表明 , 在 图 文 匹配 任务 的 学 习 目 标 指导 下 ， MLPeniscas 所 


了 这 三 种 图 像 特 征 来 进行 对 比 实验 , 实验 结果 在 表 2 给 出 (其 。 产生 的 融合 图 像 特征 要 比 MP. 所 产生 的 特征 要 有 更 强 的 表 
中 ， 在 图 像 推 荐 算法 中 采用 fc 单 层次 特征 是 本 团队 在 2017 ”达能 力 。 换 言 之 ， 在 融合 和 降 维 的 过 程 中 使 用 多 层次 的 特征 
搜狐 图 文 匹配 大 赛 中 的 做 法 ， 前 两 名 团队 的 图 像 表 征 方法 也 的 确 比 使 用 单 层 次 的 特征 更 有 优势 。 同 时 也 能 看 到 ， 与 图 像 
是 类 似 的 )。 根 据 在 决赛 400 小 型 测试 集 的 实验 结果 得 出 ， 推荐 算法 相 比 ， 利 用 MUP soos 融合 图 像 特征 直接 进行 相似 度 
fet+mixed9 特征 的 Recall@K 表现 相 比 于 fe 特征 都 有 稍微 的 匹配 的 方法 在 recall@5,10 上 具有 更 优秀 的 表现 ， 尤 其 是 在 
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recall@10 表现 上 ， 其 相对 于 只 采用 fc 特征 的 图 像 推荐 算法 世界 真实 存在 的 新 闻 及 其 配 图 所 组 成 ， 因 此 在 该 数据 集 上 解 
在 小 型 测试 集 里 有 14.0 的 提升 ， 在 完整 测试 集 里 有 1.3 的 提 ” ” 决 图 文 匹 配 任务 的 难度 会 更 大 。 但 是 本 文 的 方法 在 该 数据 身 
Ft. 上 依然 是 有 效 的 ， 能 获得 更 好 的 推荐 表现 。 
3.2 Flickr30K 数据 集 | | 4 ”结束 语 
为 了 验证 本 文 提 出 的 融合 算法 是 否 具有 普遍 性 ， 本 文 在 
Flickr30K 数据 集中 也 进行 了 对 比 实验 。 该 数据 集 总 共 包含 了 图 文 匹配 一 直 是 一 个 极 具 挑 战 性 的 任务 ， 需 要 精准 地 抽 
31783 幅 图 像 ， 每 幅 图 像 都 有 其 对 应 的 5 个 描述 短 句 。 本 实 。 取 文 本 和 图 像 的 特征 。 特 别 是 对 于 图 像 来 说 ， 由 于 其 表达 
验 遵循 了 公开 的 数据 集 划 分 方案 61， 把 该 数据 集 分 成 了 羊 事物 的 表现 更 为 丰富 ， 因 而 获取 图 像 特 征 尤为 困难 。 大 量 
29 783 幅 训 练 图 像 、1 000 幅 验 证 图 像 以 及 1 000 幅 测试 图 像 。 先前 的 研究 工作 提出 了 多 种 获取 图 像 特 征 的 方法 ， 而 现今 主 
在 本 实验 中 ， 利 用 所 有 的 描述 短 名 训练 出 500 主题 的 潜流 的 做 法 是 使 用 预 训练 深度 学 习 网 络 去 抽取 图 像 特征 。 然 而 ， 
语义 分 析 主 题 模型 ， 用 于 产生 文本 的 特征 向 量 。 与 3.1 节 的 “该 主流 做 法 未 能 充分 利用 有 用 的 特征 且 易 受 噪声 特征 的 干扰 。 
实验 一 样 ， 本 节 实 验 也 使 用 了 预 训 练 Inception v3 网 络 中 的 针对 以 上 存在 的 问题 ， 本 文 提出 了 一 种 对 多 层次 深度 表 
fc 特征 以 及 mixed9 特征 来 作为 多 层次 预 训练 图 像 特征 。 融 。” 达 的 预 训 练 图 像 特征 进行 利用 的 融合 算法 : 通过 利用 图 文 匹 
合算 法 中 所 使 用 的 MLPemixcan 和 用 于 对 比 实验 的 MLP. 的 具体 ” 配 任务 的 学 习 目 标 ， 有 监督 地 融合 和 降 维 多 层 次 的 预 训练 图 
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结构 和 训练 细节 也 与 搜狐 数据 集 实 验 保持 一 致 ， 已 在 3.1 节 像 特征 ， 最 终生 成 出 融合 图 像 特征 ， 充 分 地 利用 了 更 多 的 有 
给 出 。 最 终 则 能 利用 29783 幅 训 练 图 像 和 对 应 的 描述 短 句 ， 用 特征 和 减少 了 噪声 特征 的 干扰 。 在 实验 部 分 ， 通 过 把 融合 
有 监督 地 对 MLPiemisao 和 MLP: 的 网 络 参 数 进 行 训练 。 图 像 特征 引入 到 本 文 实现 的 图 像 推 荐 算法 中 进行 对 比 实验 ， 


在 本 数据 集中 ， 各 种 图 像 特征 在 图 像 推荐 算法 中 的 对 比 ”证 明了 融合 图 像 特 征 确实 是 拥有 更 强大 的 表征 能 力 ， 能 获得 
实验 结果 在 表 4 给 出 。 从 表 4 可 以 看 到 ， 与 3.1 节 的 实验 结 ”更 好 的 推荐 表现 。 而 且 ， 本 文 也 进一步 地 设计 了 一 个 实验 ， 
果 不 一 样 ，fetmixed9 特征 的 大 部 分 recall@K 表现 相 比 于 fe 证 明了 在 融合 和 降 维 的 过 程 中 使 用 多 层次 的 特征 是 比 使 用 单 
特征 要 差 ,证 明 噪 声 特征 在 该 数据 集中 有 很 严重 的 不 利 影 响 。 ”层次 的 特征 更 有 优势 ， 获 得 的 效果 更 好 。 最 后 综合 所 有 的 实 
而 MLP。uss 融合 图 像 特征 相 比 于 fe 特征 ， 尽 管 在 Recall@1 验 结果 ， 得 出 本 文 所 提出 的 方法 是 有 效 的 结论 。 值 得 注意 的 
的 表现 有 下 降 ， 但 是 其 在 recall@5,10 的 表现 更 优 ， 其 中 ”是 ， 本 文 虽然 针对 的 是 图 文 匹配 任务 ， 但 实际 上 通过 更 改 用 


il 


recall@10 表现 有 1.0 的 提升 。 因 此 ， 本 文 方法 在 Flickr30K ”于 指导 融合 和 降 维 的 学 习 目 标 ， 可 以 把 本 方法 延伸 到 不 同 任 
数据 集中 也 是 有 效 的 。 务 中 。 
表 4 Flickr30K 数据 集中 各 种 图 像 特 征 在 图 像 推 荐 算法 的 对 比 实验 前 在 短 句 文本 上 的 图 文 匹 配 已 经 获得 了 很 好 的 成 果 。 
Table 4 Comparison of image recommendation algorithms using 但 是 对 于 长 句 文 本 来 说 ， 由 于 其 内 容 十 分 复杂 ， 难 于 抽取 关 
different image features on Flickr30K dataset 键 特征 ， 在 短 句 中 适用 的 方法 并 不 适用 于 长 句 。 因 此 在 长 句 
测试 集 特征 R@I  R@5S ”R@10 ”文本 上 的 图 文 匹配 将 是 一 个 需 克服 的 挑战 。 
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